域泛化算法使用来自多个域的培训数据来学习概括到未经识别域的模型。虽然最近提出的基准证明大多数现有算法不优于简单的基线,但建立的评估方法未能暴露各种因素的影响,这有助于性能不佳。在本文中,我们提出了一个域泛化算法的评估框架,其允许将误差分解成组件捕获概念的不同方面。通过基于域不变表示学习的思想的算法的普遍性的启发,我们扩展了评估框架,以捕获在实现不变性时捕获各种类型的失败。我们表明,泛化误差的最大贡献者跨越方法,数据集,正则化强度甚至培训长度各不相同。我们遵守与学习域不变表示的策略相关的两个问题。在彩色的MNIST上,大多数域泛化算法失败,因为它们仅在训练域上达到域名不变性。在Camelyon-17上,域名不变性会降低看不见域的表示质量。我们假设专注于在丰富的代表之上调整分类器可以是有希望的方向。
translated by 谷歌翻译
Some of the tightest information-theoretic generalization bounds depend on the average information between the learned hypothesis and a single training example. However, these sample-wise bounds were derived only for expected generalization gap. We show that even for expected squared generalization gap no such sample-wise information-theoretic bounds exist. The same is true for PAC-Bayes and single-draw bounds. Remarkably, PAC-Bayes, single-draw and expected squared generalization gap bounds that depend on information in pairs of examples exist.
translated by 谷歌翻译
模式形成过程中拓扑和微观结构方案中过渡的识别和分类对于理解和制造许多应用领域中的微观结构精确的新型材料至关重要。不幸的是,相关的微观结构过渡可能取决于以微妙而复杂的方式取决于过程参数,而经典相变理论未捕获。尽管有监督的机器学习方法可能对识别过渡制度很有用,但他们需要标签,这些标签需要先验了解订单参数或描述这些过渡的相关结构。由动态系统的通用原理的激励,我们使用一种自我监督的方法来解决使用神经网络从观察到的微观结构中预测过程参数的反问题。这种方法不需要关于不同类别的微观结构模式或预测微观结构过渡的目标任务的预定义的,标记的数据。我们表明,执行逆问题预测任务的困难与发现微观结构制度的目标有关,因为微观结构模式的定性变化与我们自我监督问题的不确定性预测的变化相对应。我们通过在两个不同的模式形成过程中自动发现微观结构方案中的过渡来证明我们的方法的价值:两相混合物的旋律分解以及在薄膜物理蒸气沉积过程中二进制合金浓度调制的形成。这种方法为发现和理解看不见的或难以辨认的过渡制度开辟了一个有希望的途径,并最终用于控制复杂的模式形成过程。
translated by 谷歌翻译
最近的性能(SOTA)用于图表代表学习(GRL)的性能的改进已经以显着的计算资源要求,例如,用于训练,例如,通过背部计算渐变在许多数据时期。同时,单数值分解(SVD)可以找到闭合形式的解决方案以凸出的问题,仅使用少数时代的时期。在本文中,我们为具有适度硬件的人进行了更多计算贸易。我们设计一个计算\ textit {隐式}定义的矩阵的SVD的框架,并将此框架应用于多个GRL任务。对于每个任务,我们导出了SOTA模型的线性近似,其中我们设计(昂贵 - 存储)矩阵$ \ mathbf {m} $和培训模型,通过$ \ mathbf {m}的svd rend-form,以封闭形式$,无需计算$ \ mathbf {m} $的条目。通过在一个步骤中融合到独特的点,并且在没有计算梯度的情况下,我们的模型在文章引文和生物互动网络等各种图表中显示出具有竞争性的经验测试性能。更重要的是,SVD可以初始化更深入的模型,该模型几乎无处不在地是非线性的,但在其参数驻留在超平面上时,虽然线性地行事,但是在超平面上初始化时,则行为。然后,更深入的模型可以在仅几个时期内进行微调。总的来说,我们的程序比现有技术的方法训练数百次,同时竞争经验测试性能。我们开源我们的实施:https://github.com/samihaija/isvd
translated by 谷歌翻译
从非正规化概率分布的抽样是机器学习中的基本问题,包括贝叶斯建模,潜在因子推断和基于能源的模型训练。在几十年的研究之后,尽管收敛缓慢,但MCMC的变化仍然是抽样的默认方法。辅助神经模型可以学习加速MCMC,但训练额外模型的开销可能是禁止的。我们通过具有非牛顿势头的新的汉密尔顿动态提出了对这个问题的根本不同的方法。与MCMC蒙特卡洛等MCMC接近相比,不需要随机步骤。相反,在扩展状态空间中提出的确定性动态精确地对能量函数指定的目标分布,在ergodicity的假设下。或者,可以将动态解释为在没有训练的情况下对指定的能量模型进行采样的标准化流程。所提出的能量采样哈密尔顿(ESH)动态有一个简单的形式,可以用现有的颂歌解决,但我们推出了一个专业的求解器,它表现出更好的性能。 ESH Dynamics会收敛于其MCMC竞争对手的速度更快,更稳定地培训神经网络能量模型。
translated by 谷歌翻译
Existing popular methods for semi-supervised learning with Graph Neural Networks (such as the Graph Convolutional Network) provably cannot learn a general class of neighborhood mixing relationships. To address this weakness, we propose a new model, MixHop, that can learn these relationships, including difference operators, by repeatedly mixing feature representations of neighbors at various distances. MixHop requires no additional memory or computational complexity, and outperforms on challenging baselines. In addition, we propose sparsity regularization that allows us to visualize how the network prioritizes neighborhood information across different graph datasets. Our analysis of the learned architectures reveals that neighborhood mixing varies per datasets. 1 We use "like", as graph edges are not axis-aligned.
translated by 谷歌翻译